iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 21
1
AI & Data

特徵工程 in 30 days系列 第 22

[特徵選擇]intro

  • 分享至 

  • xImage
  •  

我鐵人賽持續已經進入尾聲,第21天啦!這中間的過程大部分是對資料的完善,到目前為止,在處理資料時,我們探討的範圍包含:

  • 透過辨識資料的尺度理解表徵
  • 改善資料及對缺漏值的處理
  • 資料的正規化

到此步驟,也更接近了進到機器學習流程的階段。在此[特徵選擇]系列中,我們將討論稱為特徵選擇的特徵工程的子環節,這是在機器學習流程從表徵中挑選出最佳的表徵組合。 更正式的定義,給定N個特徵,我們從中找出K個子表徵,此K個表徵能幫助我們改善我們的機器學習流程;加強我們的機器學習預測精度。我們的資料中可能含有品質較低的表徵或是雜訊,特徵選擇的目的是讓我們資料程度上的過濾雜訊並找出有助於機器學習的優良表徵。本章的大部分內容都致力於我們可以找到這些表徵子集的方法以及這些方法的基礎。本系列特徵選擇方法分為兩大類:

  • 基於統計的特徵選擇
  • 基於模型的特徵選擇。

其中包含的子主題為:

  • 在功能工程中實現更好的性能
  • 創建機器學習流程
  • 特徵選擇的類型
  • 選擇正確的特徵選擇方法

閒聊

最近每天在工作上都有許多挑戰,導致下班後的寫文章時間受到擠壓,時常在半夜了才開始趕文章,心裡覺得累累的。也是這個原因,本來異想天開要挑戰的第二個鐵人賽主題"機率論"在第二天就腰斬了,因為要將數學寫的直觀好懂往往最花腦力,寫第一篇就花了三小時半左右的時間自製圖片跟想解說範例,回頭想想是自己高估了自己的能力。在剩下的時間我將會集中精神放在完善特徵工程的文章上,我也將回頭整理過往的文章,調整到更直觀好懂的形式。

最後,因為士初次參加鐵人賽,還在培訓期間無法回復人們對我文章的留言(奇怪的限制),如果您有任何對文章的建議都可以直接留言(我都會看),或是傳訊息給我,非常感謝。


上一篇
[改善資料品質]Part-3 多項式特徵
下一篇
[特徵選擇]使用皮爾遜積差相關係數來做特徵選擇
系列文
特徵工程 in 30 days23
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言